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jj Zu 口语 语言 理解 是 任务 式 对 话 系统 的 重要 组 件 ， 预 训练 语言 模型 在 口语 语言 理解 中 取得 了 重要 突破 。 然 而 ， 
目前 这 些 预 训练 语言 模型 ， 大 多 是 基于 大 规模 书面 文本 语 料 。 考 虑 到 口语 与 书面 语 在 结构 、 使 用 条 件 和 表达 方式 上 
的 明显 差异 ， 构 建 了 大 规模 、 双 角色 、 多 轮 次 、 口 语 对 话语 料 ， 并 提出 融合 角色 、 结 构 和 语义 的 四 个 自 监督 预 训练 
任务 : 全 词 掩 码 ， 角 色 预 测 ， 话 语 内 部 反 转 预测 和 轮 次 间 互 换 预测 ， 通 过 多 任务 联合 训练 面向 口语 的 预 训练 语言 模 
型 SPD-BERT: SPoken Dialog-BERT。 在 金融 领域 智能 客服 场景 的 三 个 人 工 标注 数据 集 : 意图 识别 、 实 体 识 别 和 拼 
音 纠 错 上 进行 详细 的 实验 测试 ， 实 验 结果 表明 该 语言 模型 的 有 效 性 。 

关键 词 : 对 话 系统 ; 口语 语言 理解 ; 预 训练 语言 模型 ; 意图 识别 ; 实体 识别 

中 图 分 类 号 : TP183 doi: 10.19734/j.issn.1001-3695.2022.01.0029 


Spd-bert: role, structure and semantic based pre-trained spoken dialog language model 


Huang Jiant, Li Feng 
(Innovation Lab, Shanghai Pudong Development Bank Co. Ltd, Shanghai 200001, China) 


Abstract: Spoken language understanding (SLU) is an important component of dialog system. Recently, pre-trained language 
model has made breakthrough in various tasks of spoken language understanding. However, these language models are trained 
with large-scale written language, which are quite different from spoken language in structure, condition and expression 
pattern. This paper construct large-scale multi-turn bi-role spoken dialog corpus. Then four self-supervised pre-trained tasks 
are proposed: masked language model, role prediction, intra-query reverse prediction and inter-query exchange prediction. A 
bert-based spoken dialog language model (SPD-BERT) is pre-trained through multi-task learning. Finally, the model is tested 
with three typical tasks of intelligent customer service in finance domain. The experiment results demonstrates the 
effectiveness of out model. 

Key words: dialog systems; spoken language understanding; pre-trained language model; intent detection; named entity 


recognition 
0 引言 根据 语言 学 的 研究 ， 口 语 与 书面 语 存在 差异 ， 口 语 是 听 
和 说 的 语言 ， 所 以 要 求 快 ， 讲 求 效 率 ， 用 词 范 围 相 对 较 窗 ， 


对 话 系统 在 自然 语言 处 理应 用 中 扮演 着 重要 的 作用 ， 取 句子 比较 短 ， 结 构 比 较 简单 ， 有 重复 、 脱 节 、 苏 倒 、 停 顿 等 
得 了 许多 成 功 案例 , 如 : 智能 客服 , 智能 外 呼 , 智能 助手 等 ， 岗 象 ， 还 会 出 现 语气 词 (如 : "E, 呢 等 )。 书面 语 是 写 和 看 的 语 
E 并 广泛 应 用 于 金融 、 通 信 、 电 子 商务 等 领域 。 通 常 来 说 ,对 言 ， 这 可 以 给 人 足够 的 时 间 进 行 推 殴 和 琢磨 。 因 此 ， 口 语 化 
话 系统 包括 四 大 模块 : 自然 语言 理解 NLU，naturallanguage 的 文本 语 料 和 书面 语文 本 语 料 存在 显著 的 差异 ， 图 1 展示 1 


understanding)， 对 话 状态 追踪 (DST，dialog state tracking), XJ 型 人 与 人 口语 对 话 案 例 , 其 中 左 侧 为 原始 对 话 ， 右 侧 为 
话 管理 (DM，dialog management) 和 自然 语言 生成 (NLG， SPD-BERT 模型 的 输入 和 输出 。 

natural language generation)。 其 中 ,口语 语言 理解 是 任务 式 对 然而 ， 目 前 预 训 练 语言 模型 大 多 是 基于 书面 语文 本 语 料 
话 系统 03 的 重要 组 件 , 目的 是 从 用 户 询问 语句 中 获取 关键 的 (例如 : wiki, 新 闻 等 ) 训 练 得 到 。 目 前 取得 明显 效果 的 口语 语 


语义 信息 , 包括 众多 细 分 任务 : 意图 识别 ,实体 识别 由 , 情绪 理解 模型 ， 大 多 是 直接 基于 这 些 预 训练 语言 模型 。 再 者 ， 
识别 , 态度 识别 等 。 与 此 同时 , 随 着 预 训练 语言 模型 名 (PTM， 使 用 不 同 范式 的 语 料 训练 获得 语言 模型 ， 将 学 习 到 不 同 的 知 
pre-trained language model) 的 发 展 ， 基 于 PTM 的 识别 模型 在 识 。 如 果 基 于 大 规模 口语 化 文本 语 料 ， 训 练 语言 模型 ， 将 进 
口语 语言 理解 的 任务 上 取得 了 显著 的 效果 ， 极 大 地 提高 了 对 ”一步 提高 口语 语言 理解 任务 的 效果 。 并 且 ， 书 面 语 语 料 大 多 
话 系统 的 客户 满意 程度 。 是 基于 长 文本 ， 不 涉及 角色 转换 。 对 于 对 话 系统 ， 往 往 是 短 

传统 的 对 话 系统 仅 允 许 客户 通过 文本 方式 表达 需求 ， 这 ”文本 ， 并 且 至 少 涉及 两 个 角色 的 转换 ， 从 而 导致 在 表达 内 容 
极 大 地 限制 了 使 用 效率 。 为 了 提升 客户 体验 ， 这 些 对 话 系 统 。 上 呈现 跳跃 性 。 
逐渐 支持 客户 通过 语音 方式 输入 询问 语句 。 ， 随 着 语音 Ak, KXL BERT 为 核心 骨架 ， 训 练 面向 口语 对 话 的 
识别 (ASR, audio speech recognition) 技 术 的 发 展 和 成 熟 , 越 来 ” 语言 模型 SPD-BERT， 即 SPoken Dialog BERT. Z&3CÍT] viij 
越 多 的 客户 倾向 于 使 用 语音 作为 主要 输入 方式 。 客 户 的 语音 。 ”总结 如 下 : 
经 过 ASR 转译 为 文本 , 并 传递 给 对 话 系统 。 通过 语音 输入 的 1) 构 建 大 规模 、 双 角色 、 多 轮 次 、 口语 化 对 话语 料 。 收 全 


hill 


9" 


一 


文本 ， 通 常 是 口语 化 文本 。 大 规模 领域 对 话语 料 ， 对 ASR 转译 后 的 口语 化 文本 进行 


收 稿 日 期 : 2022-01-05; 修 回 日 期 : 2022-03-18 

作者 简介 : 黄 健 (1986-), 男 (通信 作者 )， 上海 人 ,上 海 浦 东 发 展 银行 股份 有 限 公司 创新 实验 室 智 能 对 话 方向 负责 人 , 博士 , 主要 研究 方向 为 智能 对 话 、 
自然 语言 理解 、 文 本 纠 错 、 基 于 知识 图 谱 的 问答 和 产品 推荐 (jan8611@163.com); 李 锋 (1980-)， 男 ， 上 海 人 ， 上 海 浦东 发 展 银行 股份 有 限 公司 创新 实验 室 
AI 技术 方向 负责 人 ， 高 级 工程 师 ， 博 士 ， 主 要 研究 方向 为 数字 人 、 智 能 对 话 、 语 音 识别 、 图 像 识 别 . 


202204.00048v1 


chinaXiv 


录用 定稿 


黄 R, 等 : 融合 角色 、 


洗 、 合 并 、 拼 音 纠 错 等 处 理 ， 构 建 首 个 面向 金融 领 


级 口语 对 话语 料 库 。 
2) 创 新 性 
包括 4 个 预 训练 任务 : 
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域 的 干 万 SPD-BERT， 是 业界 首 个 面向 金融 领域 多 轮 对 话 理 解 的 预 训 


FE 地 提出 角色 、 结 构 和 语义 融合 的 预 训练 任务 。 
Aia f&fi3(WWM, Whole Word Masking), 
角色 预测 (RP, Role Prediction), i5 iE Pj SE Js £z TR 3 (IQRP, 


Intra-Query Reverse Prediction)， 轮 次 间 互 换 预 测 (IQEP, Inter- 


练 语言 模型 。 


型 


4) 下 游 任务 实验 对 比 。 € 训练 语言 模型 ， 在 3 个 下 
游 任务 


在 口语 


上 进行 实验 对 比分 析 ， 实 验 结 果 显 示 了 SPD- BERT 模 
语 语言 理解 任务 上 取得 显著 效果 , 在 拼音 纠 错 任 务 上 ， 


句子 级 别 的 Fl 提升 1.8%, 显示 出 与 书面 语 模型 的 明显 优势 。 


Query Exchange Prediction)。 突 破 BERT 的 两 个 预 训练 任务 本 文 的 结构 如 下 ， 第 二 部 分 介绍 相关 工作 ， 第 三 部 分 详 
( 掩 码 和 预测 下 一 个 句子 (NSP, Next Sentence Prediction)) 的 限 细 阅 述 模 型 结构 、4 个 自 监督 预 训练 任务 、 多 任务 联合 学 习 ， 
制 ， 提 高 角色 、 结 构 和 语义 的 交互 能 并 详细 讨论 大 规模 口语 对 话 训练 语 料 生 成 、 以 及 模型 训练 等 。 
3) 训 练 口语 对 话语 言 模 型 。 基 于 大 规模 口语 对 话语 料 ， 第 四 部 分 对 比分 析 多 个 口语 语言 理解 任务 的 实验 效果 。 最 后 ， 
将 4 个 预 训练 任务 联合 学 习 ， 获得 预 训练 onm 语言 模型 对 全 文 进行 总 结 ， 并 对 未 来 工作 提出 展望 。 
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图 1 人 与 人 口语 对 话 案例 
Fig. 1 Case of human to human conversation 
1 ”相关 工作 个 任务 之 间 的 直接 关系 ,考虑 到 意图 识别 对 槽 位 填充 的 影响 ， 
以 及 覃 位 填充 对 意图 识别 的 影响 ， 从 而 互相 提高 效果 。 文 献 
口语 语言 理解 是 对 话 系统 的 子 任务 ， 在 任务 式 对 话 系 统 [9] 通 过 构建 意图 识别 和 覃 位 填充 任务 的 双向 联系 ， 提 出 联合 
应 用 中 起 着 非常 重要 的 作用 。 近 些 年 来 ， 随 着 预 训练 语言 模 交互 模块 来 实现 两 者 的 互相 影响 ,该 方法 基于 transformer fj 
型 的 不 断 发 展 ， 基 于 预 训练 语言 模型 的 口语 语 言 理解 模型 效 征 提取 器 ， 并 设计 了 精巧 的 交互 注意 力 层 ， 取 得 了 显著 的 效 
果 得 到 持续 的 突破 和 提升 。 本 部 分 将 分 别 简要 描述 口语 语言 果 。 随 着 预 训练 语言 模型 在 各 种 自然 语言 处 理 任务 上 的 突破 ， 


理解 任务 ， 


以 及 对 话 


11 口语 语言 理解 


口语 语言 理解 通 


图 ， 进 入 多 轮 对 话 流 


预 训练 语言 模型 。 


常 包括 若干 子 任务 ; 意图 识别 ， 
充 ， 拼 音 纠 错 ， 实 体 识 别 等 。 通 过 意图 识别 ， 理 解 


程 ， 通 过 模 位 填充 ， 获 取 任 务 


语 语言 理解 的 研究 也 逐步 探索 基于 BERTDI 的 语义 理解 模 

型 。 文 献 [10] 提 出 基于 BERT 的 意图 识别 和 槽 位 填充 联合 训 

槽 位 填 练 模型 。 文 献 [11] 提 出 基于 BERT 的 多 语言 文本 分 类 和 序列 
客户 的 意 。 ”标注 联合 框架 。 基 于 BERT 的 意图 识别 和 覃 位 填充 模型 ， 取 
的 关键 、 得 了 较为 显著 的 效果 提升 。 近期 , 文献 [12] 对 口语 语言 理解 进 


必要 信息 ; 通过 情感 识别 , 了解 客户 此 时 的 满意 程度 ; 同时 ， 行 了 详 
为 了 减少 因 ASR 转译 错误 导致 的 识别 错误 ， 通 过 拼音 纠 错 ， Hi 
提升 客户 输入 文本 的 质量 。 语 化 文 

传统 情况 下 ， 将 意图 识别 和 槽 位 填充 作为 独立 的 两 个 任 语言 理 


务 来 训练 。 文 献 [6] 提 出 基于 循环 神经 网 络 (RNN，LSTM 等 ) 


实现 意图 识别 ， 结 果 


别 的 信息 
位 填充 任 


， 提 升 模 位 填充 任务 的 效果 。 考 虑 到 意 医 
务 之 间 的 内 在 关系 ， E 务 共享 的 


以 显著 提 


文献 [8] 提 


LH 
Lu 


升 两 个 任务 


3 


E 


表明 ， 序 列 特征 能 够 显著 提升 意 
效果 。 文 献 [7] 提 出 基于 循环 神经 网 络 的 编码 器 ， 使 ) 


图 识别 
用 句子 级 


识别 E; fi 


实 的 综述 ， 这 里 不 再 更 述 。 
语 语言 理解 处 理 的 文本 大 多 是 经 过 ASR 转译 后 的 口 
本 ， 而 中 文 存在 大 量 同 音字 ， 因 此 ， 拼 音 纠 错 对 口语 
解 的 整体 效果 起 着 非常 重要 的 作用 。 早 期 的 研究 主要 


采取 流水 线 方式 : 错误 识别 , 候选 生成 和 结果 选择 。 文 献 [13] 


使 用 基于 字符 的 N 元 语言 模型 来 检测 潜在 错误 拼写 字符 集 ， 
并 基于 


E 


知识 ， 可 


写 和 拼音 相似 度 生 成 候选 集 ， 最 后 根据 语言 模型 概 


zg 


选择 


最 佳 候选 。 文 献 [14] 使 用 掩 码 语言 模型 作为 去 品 自 编 


码 器 来 生成 候选 集 ， 并 提出 置信 度 相 似 性 解码 器 来 过 滤 候 选 


的 效果 ， 联 合 训练 模型 逐 


得 到 发 展 。 


出 槽 位 填充 -意图 c e 


来 建立 两 


字 


集 。 文 献 [15] 提 出 基于 图 卷 积 网 络 的 拼写 纠 错 模型 , 基于 同音 


图 网 


络 和 同形 字 网 络 ， 可 以 学 习 到 每 个 字 的 语义 表示 ， 并 
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作为 BERT 的 输入 向 量 , 从 而 学 习 到 更 丰富 的 句子 语义 表示 。 W, m 表示 对 话 的 总 轮 次 ，is[Lm] 表 示 第 站 轮 次 ，w 表 示 
文献 [16] 从 字符 、 位置、 拼音 、 笔 画 四 个 维度 来 表示 每 一 个 字 ”第 i 轮 次 的 角色 ，w 表示 第 i 轮 次 的 角色 所 说 的 话语 。w 可 
符 ， 并 通过 困惑 集 来 生成 掩 码 训练 数据 ， 从 而 得 到 包含 拼写 以 进一步 表示 为 : wya 其中， 是 第 i 轮 的 话语 长 度 ， 
错误 知识 的 预 训练 语言 模型 。 w 表示 第 i 轮 话语 中 的 第 j 个 字符 ，je[bhm] 。 本 模型 的 
1.2 ”对 话 预 训练 语言 模型 的 是 ， 给 定 任意 一 通 对 话 ， 为 每 一 角色 说 的 话语 ， 结 合 
自然 语言 表示 学 习 从 早期 的 基于 统计 的 N 元 模型 , 到 分 下文， 生成 其 肉 入 向 量 。 值 得 注意 的 是 ， 该 嵌入 向 量 ， 不 
布 式 表示 0Q718。 这 些 属 于 静态 词 向 量 ， 即 用 一 个 固定 的 向 量 仅 包 含 话 语 的 上 下 文 语义 和 结构 信息 ， 还 包括 对 应 角色 的 
来 表示 某 个 词 。 然 而 ， 由 于 语言 的 灵活 性 和 高 效 性 ， 自 然 语 言 息 。 因 此 ， 该 嵌入 向 量 能 够 通过 微调 有 效 地 应 用 到 不 同 
言 中 存在 大 量 的 同义词 。 为 了 解决 一 词 多 义 的 问题 , 文献 [19] 的 下 游 任务 。 


pes 


提出 基于 双向 训练 神经 网 络 的 考虑 上 下 文 信息 的 词 向 量 表示 2.1 模型 概览 

方法 ， 绥 解 了 多 义 词 的 表示 问题 。 随 着 更 强大 的 特征 提取 器 模型 的 输入 表示 和 模型 的 整体 结构 ， 如 图 2 所 示 。 输 入 

Transformer09 的 提出 , 自 回 归 语 言 模型 GPT20 和 自 编码 语言 表示 包括 三 个 部 分 : token 编码 、 片 段 编码 和 位 置 编 码 。Token 

模型 BERTOGI 不 断 刷 新 各 种 自然 语言 任务 的 最 优 效果 。 编码 和 位 置 编 码 采 取 BERTO 模 型 中 的 编码 方式 。 与 传统 片 
值得 注意 的 是 ， 这 些 预 训练 语言 模型 的 训练 数据 ， 大 多 段 编码 不 同 的 是 ， 本 文 的 模型 是 面向 多 轮 次 、 双 角色 对 话 场 


是 大 规模 书籍 语 料 和 维基 百科 等 文档 型 书面 文本 ， 而 非 品 语 。 景 ， 因 此 ， 这 里 的 片段 数量 与 总 的 对 话 轮 次 成 正 相关 。 
化 文本 。 近 期 ， 针 对 对 话 系统 中 口语 化 文本 的 特点 ， 许 多 下 将 token 编码 与 片段 编码 、 位 置 编码 相 加 ， 作 为 
究 者 提出 面向 对 活 口语 化 的 预 训练 语言 模型 。 文 献 [21] 认 为 。 “transformer 的 输入 表示 。 其 中 ，token 编码 为 dj e R^ ， 对 应 的 
任务 式 对 话 系统 的 语言 模式 与 通用 文本 存在 显著 的 差异 ， 整 ”字符 嵌入 表 为 Bene, 其中, V 表示 词 表 大 小 ; 片段 编码 为 
合 大 规模 人 人 、 多 轮 、 任 务 型 对 话 数 据 集 ， 将 用 户 和 系统 标 。 加 sR， 对 应 的 片段 氛 入 表 为 Br e Rs ， 其 中 ，S 表示 最 大 片 
识 融入 到 掩 码 语言 模型 中 ， 与 BERT 对 比 发 现 ， 在 4 个 下 游 。 上段 数量 ( 即 最 大 对 话 轮 次 数量 ); 位 置 编码 为 of eR ,对 应 的 位 
任务 中 取得 显著 效果 .文献 [22] 引 入 语音 和 文本 , 提出 跨 模 态 。 置 嵌 入 表 为 pr eR, h, N 表示 整个 对 话 的 序列 长 度 ， 
掩 码 语言 建 模 任务 和 跨 模 态 条 件 语言 建 模 任务 ， 来 支持 端 到 EU 
端口 语 语言 理解 。 文 献 [23] 提 出 多 角色 对 话 理解 预 训练 语言 TTY e SE d 设置 为 768。 因 此 ，transformer 的 输入 
模型 ， 通 过 设计 若干 自 监督 任务 ， 尝 试 从 对 话 中 学 习 “ 谁 对 表示 为 
准 说 了 什么 ”， 从 而 提高 对 话 理解 过 程 。 文 献 [24] 基 于 层次 化 —" " 
循环 编码 器 -解码 器 ， 来 编码 上 下 文 信息 ， 从 而 能 够 生成 语义 HP, erc R 。 经 过 transformer 的 强大 特征 提取 能 力 ， 输 出 
更 加 流畅 的 回答 。 本 文 与 上 述 研究 成 果 的 区 别 在 于 ， 预 训练 每 个 位 置 对 应 的 嵌入 向 量 : 
任务 的 类 型 。 E; —transformer (e; ) (2) 
- E, Res RARISNEMNANAR, ANG 
2 SPD-BERT 模型 个 片段 的 第 一 个 联 入 向 量 ( 即 Eas -4)， 经 过 非 线性 分 类 器 ， 
本 文 提出 的 面向 口语 对 话 预 训练 语言 模型 SPD-BERT， 可 以 识别 该 片段 的 角色 、 轮 次 、 是 否 存在 内 部 反 转 等 。 利 用 
ee TIE E 
MANDRA: anea, Jb, ARTHEN MERRER: 
i ü [s] 


输入 |[CLS] uj [MASK] [MASK] -— uz 


Ez 


[CLS] df di [cis] i u) ul [us] d d ud sd 


| Eja Ene Es F E 


Transformer 


任务 3: 话 语 内 部 反 
_ 转 预测 


| 
| 
| 
| 

转 : 是 
lis: 
G 


图 2 口语 对 话 预 训练 语言 模型 结构 
Fig.2 Model architecture of SPD-BERT 

2.2 Shy E 侈 如 : 3€ query 是 哪个 角色 说 的 ， 可 以 构建 角色 标签 ， 茶 f 

为 了 充分 挖掘 大 规模 多 轮 、 双 角色 对 话 中 更 涵 的 知识 ， 色 先 说 了 某 query， 下 一 轮 对 话 中 说 了 另外 一 个 query。 可 以 
基于 传统 预 训练 任务 的 两 大 核心 : 掩 码 和 顺序 ， 本 文 提 出 角 AE query 内 部 的 顺序 标签 ， 以 及 轮 次 之 间 的 顺序 标签 。 
色 和 语义 融合 的 四 项 预 训练 任务 。 将 这 四 项 自 监督 预 训练 任 2.2.1 全 词 掩 码 WWM 
务 联 合 训练 ， 在 进行 语义 建 模 的 同时 ， 充 分 考虑 话语 角色 和 常规 的 掩 码 语言 模型 ,是 15% 概 率 选择 输入 序列 的 字符 ， 
对 话 结 构 上 下 文 。 注 意 的 是 ， 这 里 的 自 监督 是 指 ， 不 需要 对 ”进行 掩 码 。 然后, 针对 这 些 字符 , 以 80% 概 率 实际 进行 掩 码 ， 
大 规模 语 料 进 行人 工 标注 ， 而 是 直接 利用 语 料 本 身 的 标签 10% 概 率 随机 蔡 换 , 10% 概 率 保持 不 变 。 为 了 提高 模型 的 语义 


f 


E 


202204.00048v1 


chinaXiv 


录用 定稿 k k, $: 


学 习 能 力 ， 文 献 [25] 提 出 了 全 词 掩 码 (WWM，Whole Word 
Masking)， 基 于 预 设 词 典 , 将 连续 的 若干 字符 , 同时 掩 码 。 这 
EE ， 本 文采 取 的 是 全 词 掩 码 。 例 如 ， 对 于 角色 s 的 话语 
dud uis uis..suiy ,如 果 选 择 其 中 的 第 2、3 个 字符 需要 掩 码 ， 
[8-38] u = {ui [MASK][MASK]....5) 。 图 1 案例 中 的 第 一 轮 对 话 
FP 的 “解锁 ”表示 了 全 词 掩 码 。 利 用 每 个 位 置 输出 的 葡 入 向 
量 ， 通 过 非 线 性 字符 分 类 器 ， 预 测字 符 ， 并 与 实际 字符 
比较 。 


EI 


yn 


Hn 


pe 


进行 


p} = softmax (E;-E' T 4 bj) (3) 
其 中 ， py eR" 表示 对 掩 码 后 的 汉 的 预测 值 ，4 为 非 线 性 分 类 
器 的 偏 置 参 数 。 值 得 注意 的 是 ， 这 里 共享 了 字符 嵌入 表 已 ， 
只 是 在 计算 过 程 中 进行 了 转 置 。 模 型 的 编码 器 参数 记 为 8 ， 
非 线 性 字符 分 类 器 参数 记 为 4 ， 输 入 序列 掩 码 的 字符 数量 为 
M。 全 词 扒 码 预 训练 任务 的 损失 函数 可 以 表示 为 


M 
(0,9)=-DYogp (m ^ m, |6.0).m, e[1.2.....V] 
k=l 


(4) 


2.22 角色 预测 RP 
除了 通过 全 词 掩 码 来 学 习 语 义 知 识 之 外 ， 本 文 还 考虑 话 
9 色 信 息 (RP, Role Prediction)。 需 要 注意 的 是 ， 由 于 本 文 


1 色 多 轮 对 话 ， 因 此 ,角色 预测 属于 二 分 类 任务 (这 


里 用 A 和 C 来 表示 , A 表示 客服 代表 , C 表示 客户 )。 例如 ， 
十 于 对 话 di m (Go) G2). s C3 将 根据 4 对 应 对 的 杠 入 


N 
向 量 ,判断 该 片段 是 否 由 s 表达 的 。 图 1 案例 的 第 二 轮 对 话 ， 
预 IEN A; 第 七 轮 对 话 ， 预 测 其 角色 为 C。 利 用 每 个 
片段 的 第 一 个 嵌入 向 量 ( 即 &)， 作 为 片段 的 语义 表示 ， 通 过 


非 线 性 角色 分 类 器 ， 预 测 该 片段 的 角色 ， 并 与 实际 角色 进行 
比较 。 


(5) 
bb 是 非 线 性 分 类 器 的 偏 置 参 数 。 然 
D 本文 的 模型 不 限于 双 角 色 对 话 ， 同 样 适合 于 多 角色 对 话 
场景 ， 只 是 由 二 分 类 任务 ， 转 换 为 多 分 类 任务 。 非 线性 角色 
分 类 器 的 参数 记 为 2 ， 角 色 预 测 预 训练 任务 的 损失 函数 可 以 
表示 为 


p? = sigmoid (En*W, +b,) 
E rH j Ww, eR" , 


PER, 


L, (0,0,)=—-) Jogp? (n=n,|0,0),n, e[A.C] (6) 


2.2.3 话语 内 部 反 转 预测 IQRP 


多 轮 对 话 具 有 先天 的 内 在 顺序 逻辑 ， 因 此 ， 本 文 提 出 两 
种 基于 顺序 的 预 训练 任务 。 本 部 分 从 微观 角度 ， 先 介绍 角色 


7 


不 同 轮 次 的 话 


语 也 


融合 角色 、 结 构 和 语义 的 口语 对 话 预 训练 语言 模型 


次 的 回复 ， 


两 轮 话语 进 


际 语义 和 含义 。 
Exchange Prediction) 


话 的 实际 轮 


d, — ds). o2. us ) Ss, us),.. «(Sms ttm )} , 如 果 选 
话 互 换 ， 即 得 到 di = (55.5). S2313 ); (S1511 J>- (5, )} > 这 里 就 需要 


根据 片段 的 嵌入 向 量 , 预测 其 轮 次 为 3( 即 使 


序列 中 处 于 第 
其 轮 次 为 1( 即 


次 , 


1 轮 次 )， 


ChinaXiv 合 作 期 刊 


第 


EH, II 


片段 us 在 输入 
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有 内 在 的 顺序 逻辑 ， 它 可 能 是 对 前 一 轮 
可 能 是 对 更 早 轮 次 的 澄清 或 否定 等 。 如 果 将 任 
行 交 换 顺 序 ， 那 么 ， 必 然 将 影响 整个 对 话 的 实 
妹 此 ， 轮 次 间 互 换 预 测 (IQEP, Inter-Query 
， 实 际 上 是 需要 预测 每 一 片段 在 整个 对 
属于 多 分 类 任务 。 例 如 ， 对 于 对 话 
第 1 和 


3 轮 次 对 


例 的 第 三 轮 和 


段 的 第 一 个 嵌入 向 量 ， 预 测 该 片段 在 对 话 中 的 轮 次 ， 


际 轮 次 进行 比 


Hn, péeR? 


线性 轮 次 分 类 器 的 参数 记 为 2 ， 


函数 可 以 表示 


第 四 


较 。 


QW 


为 


居 片 段 的 嵌入 向 量 ， 预 测 
s Pr Bt wu 在 输入 序列 中 处 于 第 3 轮 次 )。 图 1 案 


轮 进行 了 互 换 ， 因 此 ， 需 要 预测 输入 第 三 


p = sofimax( E,W, +b,) 


eR” ，b, 是 非 


轮 实际 为 第 四 轮 ， 而 输入 第 四 轮 实际 为 第 三 轮 。 利 


] 每 个 片 
与 实 


(9) 


线性 分 类 器 的 偏 置 参 数 。 非 


s 
Li(0,0,)=—2 Togp? (e=e,|0,0,),e, €[L2.....5] 
s=l 


2.3 多 任务 联合 训练 


最 终 ， 综 合 考虑 上 述 四 个 自 监 督 预 训练 任务 ， 通 过 多 任 
务 联合 学 习 ， 最 小 化 上 述 损 失 函 数 之 和 ， 训 练 本 文 
BERT 模型 ， 模 型 总 的 损失 

L(06,8,0,,0,,0,) - L (6.0) L,(0,0,) - .(06,0,) - L, (0.0,) 


2.4 模型 预 训 练 


结合 上 述 四 项 自 
预 训练 SPD-BERT 模型 ， 包括: 如 何 生 成 高 质量 、 
练 的 参数 设置 。 


练 语 料 


， 以 及 模型 j 


2.4.1 语 料 数据 


了 保护 客户 的 隐私 , 这 里 将 文 
、 手 机 号 码 、 金 额 、 银 行 卡号 、 住 址 i 


由 于 目前 没有 玫 
文 收集 金融 领域 内 2020 年 5 

些 数据 是 客户 和 
TXH5. 并 将 语音 通过 ASR 转译 后 的 文本 数据 。 为 


, 这 


监督 预 训练 


轮 次 预测 预 训练 任务 的 损失 


(10) 


函数 可 以 表示 为 


的 SPD- 


Q1) 


I, ANLE 


介绍 如 何 


lm 


的 话语 内 部 顺序 (IQRP, Intra-Query Reverse Prediction). f f^ 
在 表达 话语 的 过 程 中 ， 往 往 包含 多 个 句子 ， 这 些 句 子 之 间 是 
天 然 具 有 先后 顺序 和 内 在 逻辑 的 ， 如 果 将 其 中 连续 两 个 句子 
进行 互 换 ， 那 么 ， 将 影响 句子 的 实际 语义 和 含义 。 因 此 ， 
QUERY 内 部 反 转 预测 属于 二 分 类 任务 ， 即 存在 反 转 和 没有 
反 转 。 例 如 ， 对 于 角色 TEE u m udis.) ， 假 
与 她 组 成 一 个 句子 ， 熙 与 改组 成 一 个 句子 , 如果 选择 该 连续 
ANETTER, BNIE E] u - {uui uiuo} 。 图 1 案例 的 


ng ui 


常见 的 ASR 转译 错误 (例如 : 备 | 
换 ，2) 为 了 满足 双 和 角色 的 基本 要 求 ， 殊 
对 话 (例如 : 外 呼 未 接听 ); 3) 为 了 
XIR, FH, AAIE AHERE, XH 
的 对 话 ; 4) 剔 除 对 话 文本 的 总 长 度 小 于 


E 提 取 器 ， 结 合 语 


轮 次 较 少 (8 轮 及 以 下 ) 
由 于 本 文 基于 transformer rfi 
的 总 长 度 限制 在 486; 6) 考 虑 到 轮 次 预 


80 的 对 话 ; 5) 


料 数据 分 析 , 对 话 文本 


第 10 轮 对 话 的 内 部 发 生 了 反 转 , 因此 ， 预 测 为 True。 利用 每 
个 片段 的 第 一 个 蔡 入 向 量 ， 预 测 该 片段 内 部 是 否 存在 句子 反 
转 ， 并 与 实际 标签 进行 比较 。 

p? -sigmoid( E; eW, +b; ) (7) 
其 中 ， PeR，WeR™”m，b, 是 非 线 性 分 类 器 的 偏 置 参数 。 非 
线性 反 转 分 类 器 的 参数 记 为 & ，QUERY 内 部 反 转 预测 预 训 
练 任务 的 损失 函数 可 以 表示 为 


L, (6.8, - —» og? (cc |0.0.).c, e[True False] (8) 
2.2.4 轮 次 间 互 换 预 测 IQEP 
从 宏观 角度 来 看 ， 在 一 通 多 轮 对 话 的 过 程 中 ， 角 色 是 基 
于 之 前 的 多 次 交互 信息 , 决定 如 何 输出 本 轮 次 的 话语 ,因此 ， 


测 属于 多 分 类 任务 ， 对 
后 ， 得 到 大 约 2000 万 通 高 质量 、 
为 了 充分 提高 语 料 


本 的 方式 ， 具 
语 料 ， 构 建 领 


体 体 


姓名 、 地 址 等 ， 全 部 进行 随机 丛 换 
数据 语 料 ， 为 了 提升 语 料 质量 ， 


F 源 的 大 规模 口语 对 话 数据 集 ， 
月 的 人 工 客服 
使 用 口语 通过 电 


] € 2021 t£ 5 


客服 代表 


KL ELE, XT 


进行 了 如 下 预 处 理 : 


大 规模 训 


大 此 ， 


本 中 出 现 的 数字 (包括 但 不 限于 : 


] 牌 号 等 )、 


Jd RUE RR). d 
除 只 涉及 


的 利用 率 ， 


使 得 模型 学 习 到 更 丰富 的 语 


话 总 轮 次 限制 在 32 轮 。 经 过 预 处 理 


多 轮 次 、 双 角色 


本 文采 取 动 态 生 成 训练 样 


B. AR 


口语 对 话 。 


或 专 


FRA 术语 ， 进 


择 其 中 部 分 片 


若干 片段 (而 非 全 部 片段 )， 预测 其 角色 。 同 理 ， 


段 进 


IQEP, 1&3 


TA 


行 全 词 掩 码 。 二 是 
IQRP、IQEP)， 并 不 需要 对 每 个 片 


有 词典 ， 对 于 


现在 如 下 两 个 方面 。 


“TE, A 


行 预测 。 对 于 


4 C BU FE RP, 


对 于 


于 全 量 对 话 
任意 对 话 ， 随 机 选择 其 中 若 
,对 于 三 个 自 监督 任务 (RP、 
段 分 别 预测 ， 而 是 随机 选 


随机 选择 
IQRP 和 


取 同 样 的 处 理 方式 。1 


于 上 述 方法 都 基于 随机 选 


择 ， 因 此 ， 对 于 任意 一 通 对 话 ， 可 以 生成 多 个 训练 样本 ， 从 


而 大 幅度 增 


m ll £s 


FARE. Mene. LER 


| 练 样本 数 
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片段 的 嵌入 向 量 会 用 于 RP、 


IQRP, IQEP 任务 ， 因 此 ， 应 尽量 避免 同一 个 片段 同时 参与 


多 个 预测 任 


是 说 ， 


然后 , 再 从 剩余 的 片段 中 ， 


2.4.2 模 


型 训练 


务 ， 而 其 他 片段 却 没有 参与 到 任务 学 习 中 。 也 就 
随机 选择 若干 个 片段 ， 
的 片段 中 ， 随 机 选择 若干 片段 ， 


预测 其 对 应 的 角色 。 再 从 剩余 
预测 其 内 部 是 否 存在 反 转 。 
泽 若 干 片段 , 预测 其 轮 次 。 


随机 选 


这 里 的 transformer 编码 器 配置 与 BERTGI 的 BERT, 保持 


一 致 ,并且 , 使 用 


集 、 


并 在 测试 外 


集 、 测 试 集 ， 


10%、 
依据 验证 


开源 的 中 文 BERT 参数 来 初始 化 transformer 
编码 器 ， 学 习 率 设置 为 5e-5， 使 用 学 习 率 预 
器 的 激活 函数 设置 为 GELUP9， 
大 小 设置 为 32, 在 Tesla V100 上 进行 模型 训 
验 ， 本 文 按照 80%、 
验证 


热 ， 非 线性 分 类 
REREN Adam, $e 
练 。 对 于 所 有 实 
10% 的 比例 将 数据 集 拆 分 成 训练 
集 的 效果 ， 选 择 最 优 模 型 ， 


进行 评估 。 每 组 实验 进行 4 次 ， 


取 4 次 评估 结果 


itr 


2E 


Sip 
例如 : 
服 场景 


均值 ， 
3 ”实验 


于 人 人 对 话语 料 训练 的 SPD-BERT $37 
理 对 话 的 领域 知识 ， 可 应 ) 
EUBE IHR. 2 

情调 SPD-BERT 模型 ， 
言 理解 下 游 任务 : 


作为 最 终 的 评估 结果 。 


型 ， 是 为 了 学 习 


Tj 能 质 检 ， 各 
为 例 ，; 


并 比较 不 同 模型 
实验 数据 


3.1 


于 下 游 的 口语 理解 任务 中 ， 
智能 助手 等 。 这 里 ， 以 智能 
应 | 


于 三 个 典型 口 


语 语 


意图 识别 、ASR 拼音 纠 错 和 产品 名 识别 ， 
4 在 数据 集 上 的 效果 。 


笔者 所 在 机 构 在 金融 领域 智能 客服 方面 积累 了 大 量 意图 


识别 训 


练 数据 ， 可 以 作为 本 次 实验 对 象 。 男 外 ， 为 了 提升 对 


话 效果 , 笔者 所 在 


数据 和 
三 项 任 


据 ; (c)ASR f 


以 发 现 
度 32 
差异 。 
针对 领 
标注 


E 机 构 标 注 了 相当 数量 的 ASR 拼音 纠 错 训练 


产品 名 (例如 : 理 


财 7 
务 的 


TAa 
对 话 理 


br 在 口语 


练 数据 分 布 如 图 3 所 示 。(a)(b) 意 
| 练 数据 
f 


别 训练 数据 ， 
图 识别 训练 数 
别 训练 数据 。 可 
本 是 短文 本 ， 长 


O A^ 
品 , 基金 产品 等 


等 ) 识 


; (d) 产 品名 识 
E 务 中 ， 大 部 分 样 


个 字符 左右 ， 这 与 常见 的 文档 型 数据 存在 较为 明显 的 


表 1 展示 了 三 个 数 扩 
域内 特定 任 


务 ， 为 了 达到 预期 生产 的 效果 ， 


昌 集 的 数据 统计 分 析 ， 可 以 发 现 ， 


本 文人 工 


基于 年 单 


入 格式 要 求 , 在 客户 话语 的 首部 添加 [CLS] 标 识 ， 
加 [SEP] 标 识 ， 输 入 到 模型 中 ， 得 到 每 个 位 置 的 谈 入 向 量 。 
务 , 提取 [CLS] 对 应 的 嵌入 向 量 ,再 


=æ D] 
意图 识 


轮 对 话 的 客 


户 话语 ， 


了 大 量 的 标签 数据 。 值 得 注意 的 是 ， 这 些 训练 数据 都 是 


ME, TENE SPD-BERT pnis 


别 任 


+ 
出 每 


个 意图 的 得 分 和 概率 。 例 如 ， 客 户 话语 : 


在 尾部 


增加 全 连接 层 ， 
帮 我 看 看 我 


ETE 


EJ, 


E. 输出 该 字符 是 否 存在 转译 


在 转译 错 
个 字符 


有 还 有 多 


多 少 钱 ， AERE 意图 为 : 


查 余额 。 对 于 ASR 拼音 纠 


提取 每 个 字符 


立 置 对 应 的 


陪 入 向 量 ， 再 增加 全 连接 


错误 的 字符 ， 使 / 


想 数 区 


马上 到 期 的 理财 产品 


译 为 “ 数 


别 任 


ul? 


, 这 


j 另 外 一 个 全 连接 层 ， 输 出 词 
的 得 分 和 概率 (属于 多 分 类 任 


错误 (属于 二 分 类 任务 ); 对 于 存 
中 每 
务 )。 例如 , 客户 话语 : 我 

“ 赎 回 ”被 ASR 错误 转 


H? 其 中 ， 


各 严重 影响 后 续 的 意图 识别 。 对 于 产品 名 识 


务 , 提取 每 个 字符 位 置 对 应 的 租 入 


输出 每 个 字符 属于 产品 名 的 得 分 和 
伏 50ETF 这 款 基金 怎么 样 ? ” 
3.2 实验 结 

对 于 不 同 的 下 游 任务 ， 对 比 多 种 基线 模型 在 各 
的 效果 。 对 于 意图 识别 模型 ， 
基于 CNN[? 引 的 文本 分 类 模型 ， 


据 集 上 


向 量 , 再 增加 CRF 层 ， 


吉 果 


概率 。 例 如 , 客户 话语 “ 光 
,输出 基金 产品 名 : 光伏 50ETF。 


测试 数 


使 用 的 对 比 模型 包括 : 


基于 RNN 的 文本 分 类 模型 ， 


基于 BERTG] 的 文本 分 类 模型 ， 基 于 ERNIEP9 的 文本 分 类 模 


型 。 表 


2 展示 了 意图 识别 任务 的 实验 结果 。 


结果 表明 ， 预 训 
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量 与 对 话 总 轮 次 呈正 相关 。 
另外 , 需要 注意 的 是 , 考虑 到 


练 语言 模型 BERT 更 能 理 
RNN 分 别 显著 提升 了 2.8396. 
更 丰富 的 知识 ,Fl 进一步 提升 了 0.4796, 达到 了 非常 好 的 效果 。 
而 本 文 的 SPD-BERT 模型 考虑 了 


构 信 息 ， 因 此 ， 
明 ，SPD-BERT 


6000 


2500 


[] 


il 


人 


ChinaXiv 合 作 期 刊 


解 话语 的 语义 
1.56%， 而 


色 信 息 、 语 义 信 
相对 于 ERNIE 进一步 提 姑 
在 短文 本 分 类 任务 上 ， 


| | | IT TU Y. 


(a) 意图 的 样本 数量 分 布 


1234567891011121314151617181920212223242526272829 


(b) 意图 的 样本 长 度 分 布 


, 


1234567 8 91011121314151 61718192021222324252627282930 


(c) ASR 拼 音 纠 错 的 样本 长 度 分 布 


1234567 891011121314151617 18192021222324 25262728 


(d) 产品 名 识别 的 样本 长 度 分 布 


图 3 


个 典型 


语 语 言 理 解 下 游 任 


Fig. 


Tab. 1 


3 Statistics of three typical SLU tasks 
dd 数据 集 统计 分 析 
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言 息 ， 相 对 于 CNN, 
ERNIE 由 于 包含 了 


息 和 对 话 结 
T 0.38%. 
有 明显 的 优势 。 


该 实验 表 


务 训练 数据 分 析 


Statistics of train data, validation data and test data 


数据 集 描述 


意图 识别 数 ASR 拼音 纠 错 
dk 数据 集 


[ri 


产品 名 识别 


数据 集 


样本 总 数 
样本 平均 长 度 
意图 数 : 


54928 
18.61 


yl 
验证 集 样 
测试 集 样 


意图 平均 样本 数量 
练 集 样本 数量 

集 样本 数量 
本 数量 


43942 
5492 
5494 


53454 
6681 
6683 


37805 
17.24 


30244 
3780 
3781 


对 于 ASR 


包含 了 拼音 和 笔 
线 模型 。 
级 别 、 


句子 级 别 


拼音 纠 错 任 


试 纠正 错 i 


者 画 的 预 训 练 模型 PLOME09 作 为 本 实验 的 基 
如 表 3 所 示 ， 比 较 了 PLOME 和 SPD-BERT 的 字符 
率 )、Fl 值 (P 和 R 的 调 


的 PORER) REE 


务 ， 首 先 对 每 个 字符 进行 错误 检 
测 ， 如 果 认 为 该 字符 存在 拼音 错误 ， 则 学 


误 。 选 择 


和 平均 数 )。 对 于 字符 级 别 , 在 错误 检测 阶段 , Fl 显著 提升 了 


1.196; 在 错误 纠 


正 阶 段 , Fl 也 提升 了 0.4%。 对 于 句子 级 别 ， 
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在 错误 检测 阶段 , Fl 提升 较为 明显 , 达到 2.8%; 在 错误 纠正 
阶段 , FI 也 取得 明显 效果 , 提升 了 1.8%。 该 实验 表明 ,SPD- 
BERT 在 ASR 拼音 纠 错 方面 ， 明显 的 优势 。 

表 2 意图 识别 任务 的 实验 结果 


Tab.2 Comparisons of experiment results of intent detection 


模型 精准 率 (P) 召回 率 (R) Fl 
TextCNN 0.9342 0.9337 0.9339 
TextRNN 0.9443 0.9490 0.9466 
BERT 0.9616 0.9629 0.9622 
ERNIE 0.9665 0.9674 0.9669 
SPD-BERT 0.9701 0.9714 0.9707 


表 3 ASR 拼音 纠 错 任务 的 实验 结果 
Tab.3 Comparison of experiment results of ASR correction 


错误 检测 (字符 ) 错误 纠正 (字符 ) 错误 检测 (句子 错误 纠正 (句子 ) 


模型 
P R F1 P R Fl P R F1 P R F1 
PLOME 0.914 0.784 0.844 0.869 0.681 0.764 0.707 0.661 0.683 0.623 0.583 0.602 


SPD-BERT 0.933 0.789 0.855 0.870 0.686 0.768 0.727 0.695 0.711 0.634 0.607 0.620 

对 于 产品 名 识别 任务 ， 选 择 常 规 的 BILSTM-CRFD?HfI 
BERT+CRF 作为 基线 模型 。 表 4 展示 了 基于 实体 级 别 的 实验 
结果 ， 可 以 发 现 ， 由 于 理财 产品 覆盖 数 百 款 、 基 金 产品 覆盖 
数 千 款 ， 而 人 工 标注 的 数据 量 较为 丰富 ， 因 此 ， 名 称 识别 的 
效果 整体 较 好 。BERT+CRF 相 较 于 BiLSTM+CRF, F1 提升 
了 1.87%, SPD-BERT+CRF 在 BERT 的 基础 上 则 进一步 提升 
了 0.48%。 该 实验 表明 ，SPD-BERT 在 命名 实体 识别 方面 ， 
也 具有 明显 的 优势 。 

表 4 产品 名 识别 任务 的 实验 结果 
Tab.4 Comparison of experiment results of product NER 


gun 精准 率 ”召回 率 FI RMX 
BiLSTM+CRF 0.9427 0.9457 0.9442 0.9378 
BERT+CRF 0.9634 0.9624 0.9629 0.9598 
SPD-BERT+CRF 0.9676 0.9679 0.9677 0.9646 
4 mi 
本 文 提出 面向 口语 对 话 的 预 训练 语言 模型 SPD-BERT, Jf 
构建 大 规模 人 人 口语 对 话语 料 。 根 据 笔 者 的 经 验 ， 该 模型 是 首 
个 面向 口语 对 话 、 多 轮 次 、 双 角色 的 语言 模型 。 通 过 四 个 自 监 
督 预 训练 任务 ， 全 词 掩 码 ， 角 色 预 测 ， 话 语 内 部 反 转 预测 和 轮 


次 间 互 换 预 测 ， 该 模型 不 仅 考虑 话语 的 角色 信息 ， 还 融合 多 轮 
对 话 结构 和 语义 信息 。 通 过 在 金融 领域 智能 客服 场景 的 三 个 
型 下 游 任务 中 的 详细 实验 ， 证 明了 该 模型 的 有 效 性 。 

另外 ， 本 文 的 提出 的 第 四 个 预 训练 任务 : 轮 次 间 互 换 预 
测 ， 仅 仅 考虑 对 话 中 任意 两 名 QUERY. 的 互 换 。 可 以 考虑 ， 
基于 QUERY W AKER, EE: 
d, 2(G5,r). Gym) Gs nm) (S3174) (357) ， 可 以 转换 为 : 
d, — (53.5 ). Ca ta ). C51) (522). CS. us )) , 模型 需要 同时 预测 4 个 
位 置 的 正确 顺序 。 大 量 相关 研究 表明 ， 基 于 PAIR HIR K 
数 ， 比 基于 ITEM 的 往往 带 来 性 能 上 的 提升 。 
在 此 基础 上 ， 笔 者 希望 从 如 下 三 个 方面 ， 继 续 提升 该 模 
型 的 能 力 。 一 方面 ， 继 续 扩 大 领域 口语 对 话语 料 库 ， 更 大 规 
模 的 语 料 ， 往 往 能 够 带 来 模型 效果 的 提升 。 另 外 ， 尝 试 更 加 
复杂 的 自 监督 预 训 练 任务 ， 学 习 到 更 复杂 的 语义 、 结 构 等 信 
息 ， 从 而 提升 模型 的 能 力 。 最 后 ， 探 索 基 于 该 模型 ， 应 用 于 
对 话 场景 的 其 他 任务 ， 例 如 : 高 频 意图 识别 ， 对 话 树 自动 构 
建 ， 知 识 图 谱 构 建 ， 商 机 发 现 ， 个 性 化 智能 对 话 等 等 。 
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